丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
風控與安全 正文
發(fā)私信給周蕾
發(fā)送

0

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

本文作者: 周蕾 2020-07-08 08:02 專題:金融聯邦學習公開課
導語:擁有三大開源聯邦學習框架之一的百度,有著怎樣的實踐心得?

對百度來說,聯邦學習+金融會產生怎樣的火花?

雷鋒網AI金融評論推出的《BATJ高管公開課》第四期,就邀請到了百度智能云智慧金融事業(yè)部算法負責人謝國斌做客線上講堂,揭秘百度智能云在金融領域的安全計算布局和技術思考。

此次課程,他將分享基于聯邦學習技術的百度金融安全計算平臺(度信)建設與實際應用,講述如何借力安全技術架構、脫敏方法和合規(guī)制度設計,在“用戶充分授權、數據來源合法合規(guī)”前提下,打破數據孤島,實現多方數據加密融合建模,助力金融企業(yè)業(yè)務的開展。

本文整理:佳慧,以下為謝國斌演講全文內容:

百度智能云的數據孤島破解之道

我們在跟很多的金融客戶進行溝通的時候,他們普遍面臨的痛點,就是數據孤島和隱私保護的問題。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

目前的現狀是,一方面要保護客戶的隱私,另外一方面,數據孤島在不同的程度上存在著,去年央行發(fā)布的金融科技三年發(fā)展規(guī)劃里,也強調了要“消除信息的壁壘;數據融合?!?nbsp;

今年4月,國務院也在《關于構建更加完善的要素市場化配置體制機制的意見》里,強調了數據的共享、數據資源的整合和安全保護。

所以,“數據孤島”和“隱私保護”兩者的困境,在業(yè)內一直是個難題。 

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

行業(yè)里做這塊技術的公司,一般有如下路徑在積極探索:

其中一種就是聯邦學習;還有與之接近的,就是在做參數交換、梯度交換的時候,會用到的多方安全計算。另一種以硬件加密為主,可信計算(TEE),在內存里做安全加密。以及基于云安全,做安全隔離域的方法。

基于剛才說到的痛點,百度推出了度信金融安全計算平臺,做數據融合,前提是強調用戶要充分授權,數據來源要合法、合規(guī)。也提出了聯合建模產品,拒絕數據孤島的存在,產品對上面幾種路徑都是支持的。

今天的要點,主要是分享在聯邦學習和多方安全計算技術路徑上,我們所做的嘗試和產品的研發(fā)。

我們的金融安全計算平臺有以下特點:

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文


平臺主要服務于金融行業(yè)to B客戶,會考慮行業(yè)里特別關注的一些場景,比如營銷、風控、投研、反欺詐。我們基于金融的建模,有一些專用的功能點增強。從安全特性上,無論硬件軟件,有多種的方式進行技術加固。

金融云專區(qū)上,我們通過了國家的四級等級保護;數據流通方面,我們今年通過了信通院的相關技術測評。

從計算建模層面看,我們是自主操作,甲方乙方各自操作,全程免編碼,流程很簡單,性能比同類的算法也要快。

私有云、公有云和私有化方面,我們有多種方式部署,產品目前也能提供工業(yè)級的使用體驗,包括嚴格的工程封裝、項目的驗證實測,還有百度沉淀的金融行業(yè)案例、提供金融行業(yè)的場景的解決方案。

度信金融安全計算平臺的技術方案

我們這個平臺建設,剛才提到用三大類技術方案,統一前端入口和統一后臺架構。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

后臺的架構,從下往上看,分為執(zhí)行層、應用層、操作層、場景層。

從執(zhí)行層看,中間是基于多方計算的聯邦學習引擎,引擎最下面是基于加密的密碼學算法和一些常用的不經意傳輸、同態(tài)加密、密鑰分享等。

往上是基于密碼學算法的多方安全計算,雙方或多方的加密數據的協調和交換,隱私的PSI對齊、ID化、聯邦分析和聯邦學習。

再往上是應用層一些基于模型的算法的應用,這個是標準的機器學習建模流程。

操作層有可視化的操作平臺和4A安全賦能金融行業(yè),打造營銷風控端對端的場景化建模功能。

我們的平臺架構,需要滿足三個不同的客戶需求:

定制化方案要滿足客戶不同的安全等級要求;有客戶對建模要求較高,那對算子、算法、模型多樣性、交互和應用性方面要求就高一些,我們也會提供類似的解決方案。還有對不同的資源配置,構建私有云、公有云和專有云支撐,支持不同的部署方案。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

這個平臺的操作很簡單,就是三個步驟。

先是合作的AB雙方,完成本地數據的上傳。原則上都是上傳到自己的IDC機房里,數據不出域。

第二步細分為幾個小步驟:

1.數據的融合,會通過隱私保護的求交技術PSI,達到雙方的數據的可用不可見。

強調一下,融合不會泄露雙方的數據隱私,比如說甲方有一億的客戶,B方有5000萬的客戶,雙方去求交集,求出來只有500萬客戶,那么我們只知道這500萬的交集,剩下的客戶群雙方都是不知道的。

即使求交了這500萬的客戶,我們也只有某一個主要的使用方,比如甲方銀行在使用的時候,才知道這500萬相互求交的客戶號碼是什么。

2.求交的這批客戶,我們會進行簡單的特征工程,一些算法模型訓練,包括像機器學習的邏輯回歸、GBDT等,也按照這個數據拆分,做完模型訓練、輸出模型報告以后,進行模式部署、模型推理和預測發(fā)布。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

第一步上傳樣本比較簡單,把數據上傳以后,摁一個按鍵,就會看到這一橫行里數據的上傳成功,然后AB雙方在這個地方點鼠標發(fā)布,數據才傳到本地的服務器上面。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

第二步模型訓練,會自動包含剛才說的樣本對齊,包括可選的特征工程,還有算法參數、算法選擇等。

在模型訓練過程中,等它出來一個結果,就會有一些像我這里截屏的模型,配置基本信息,比如雙方對齊了多少樣本,有哪一些特征?這里只能看到特征名稱。我們算法所涉及的每一個主要參數是什么樣的。這里以邏輯式回歸為例,生成模型評估報告,像ROC、KS值等等,就完成整個模型訓練。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

第三步就是模型預測,需要在頁面新建預測任務名稱,包括描述,還有我們選擇哪個預測的模型。生成的模型在這里做選擇,再選擇要預測的數據集,點藍色按鈕完成整個模型預測過程。一定時間后,就會看到右下角預測成功的顯示,整個模型的離線預測就完成了,也可以用新建預測服務以API的方式供外調用。

我們平臺的設計理念,是全程免編碼,通過鼠標的拖拽來完成的。

度信平臺在銀行業(yè)、保險業(yè)的應用

銀行信貸產品的互聯網營銷

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

這家銀行開展信貸業(yè)務時,需要通過互聯網去線上獲客,但它并沒有這種線上資源或流量去投放,也沒有相關風險管理經驗,于是它就跟某家互聯網公司進行渠道上的聯合建模,實現精準獲客和控制風險。

首先是銀行把他的數據和互聯網合作方,把數據在自己的機房里邊準備好,然后各自聯邦學習時,上傳梯度參數。

在互聯網渠道這一端,主要是上傳數據,建模發(fā)生在銀行這端自行操作,就完成了整個建模過程,達到了數據模型建設,完成后確定合適人群。

第三步,精準廣告投放,包括精準獲客,這部分我們項目的客戶日均調用量是50萬筆。整體貸后表現非常好,降低了風險,也節(jié)約了這家銀行的成本。 

線上風控+聯邦學習

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

因為銀行沒有過往的一些互聯網行為信息,也需要為此通過互聯網渠道來合作、來進行聯合建模。聯邦學習最后的效果就是,讓申請率提升了,通過率又穩(wěn)定在一定的范圍內,不良率低于銀行業(yè)同業(yè)平均水平。

這個案例,我們推送的貸款客戶金額是超過千萬;通過率控制在穩(wěn)定范圍;該案例的不良貸款率是0.38 ,比去年銀行業(yè)1.81的不良率低了不少。 

不同險種交叉營銷

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

這個案例是一家車險公司的業(yè)務,在客戶里篩選健康險的意向用戶,進行精準點對點促銷。建模流程與上個案例類似,由保險公司提供的高響應人群樣本和互聯網公司的數據進行融合訓練,最后結果運用于全量的車險客戶群。

效果上,這個模型的AUC值達到了0.76,減少了對客戶的打擾,也降低了營銷的成本。 

聯邦學習落地金融的關鍵技術點

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

聯邦學習本質上是軟件加密技術,數據不出域、不出本企業(yè),主要是通過梯度參數出域。從本質上來說是去中心化的方案。橫向聯邦由谷歌在2016年的時候研發(fā)出來,即數據的水平切分,主要用于金融同業(yè)間的數據融合。

橫向聯邦學習的計算步驟主要有四:雙方發(fā)送加密的梯度,安全的聚合,發(fā)送聚合的加密梯度參數,再解密梯度更新模型。

縱向聯邦學習基于數據的垂直細分,主要用于金融業(yè)和非金融行業(yè),特別是像一家銀行和一家互聯網公司的數據融合。兩家公司的客戶群很多時候是重疊的,特征互補。

首先有分發(fā)公鑰,加密交換中間的結果,再進行加密梯度和損失的計算,然后更新模型。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

在和金融企業(yè)溝通的時候,我們發(fā)現他們關注的點有這些:

整個聯邦學習里,金融企業(yè)運用最多的是縱向聯邦學習,金融機構更想看到的是和他非同業(yè)之間的數據融合。

銀行在和第三方機構合作時,非常強調這些數據進來以后,對指標的一些增量貢獻,在意的是在現有基礎上的提升。如果在現有基礎上,引入的數據源沒有很大幅度的提升、效果不明顯,對金融機構的吸引力就會降低。

同時金融機構也強調數據源的差異化,如果數據來源都很類似,那對指標的貢獻、對模型效果,提升度不是很大。 

聯邦學習是整個框架里的主要技術。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

另外,多方安全計算所涉及的加密技術,其主要原理如圖左所示,四個參與方在針對任何一方都沒有可信的情況下,安全地進行多方協同計算。

在一個分布式的網絡中,多個的參與實體各自持有秘密的輸入,完成對某函數的計算;但是要求每一個參與實體,除了計算的最終結果以外,其他的中間過程,包括自己其他客戶的原始數據,任何的輸入數據都是不可以看到、都是不可以獲得的,這保證了參與各方的數據的安全性。

在安全計算過程中,所用到的一些密碼學或加密技術,概括起來有這么七種。

  • 混淆電路,來自于物理學電路原理:一堆人各自擁有隱私數據,想把數據合起來進行計算,但又不想把數據交換給別人,典型的案例就是百萬富翁問題。

  • 不經意傳輸,服務的某一個接收方,以不經意的方式得到服務的發(fā)送方輸入的一些信息、信號,這樣就可以保護接受者的隱私不被發(fā)送者所知道。

  • 秘密的比較協議,計算的雙方各輸入一個數值,但是他們又希望在不向對方泄露自己的數據的前提下,比較出這兩個數的大小。

  • 同態(tài)加密,用這種方法先計算,后解密,也等價于先解密后計算。同態(tài)加密里也有加法同態(tài)、乘法同態(tài),包括全同態(tài)、偏同態(tài)、半同態(tài)等,它在聯邦學習中應用也較多。

  • 秘密分享,將秘密分割存儲,多個參與者要相互協作才能恢復秘密的消息,如果有一方沒有參與,是沒有辦法把這個秘密完全恢復出來的。

  • 零知識證明,證明者能夠在不向驗證者提供任何有用的信息情況下,使驗證者相信某個論斷是正確的。

  • 差分隱私,這在業(yè)界應用也比較多。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

百度在多方安全計算方面,有自己的MPC平臺架構。我們的平臺架構分為這么六層,從基礎到應用,有運行環(huán)境基于DOCKER的,還有基于云和SERVER的。

在基礎的運行環(huán)境往上,有剛才說到的六七種加密算法。再往上是整個系統包括TLS、4A這一塊的安全。再往上是系統平臺層,有用戶角色管理,包括數據和分布式調度、監(jiān)控等。再往上看是數據的接入,再到數據的應用。

下面我會重點介紹三類算法,都是百度自研的。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

第一種是邏輯回歸,邏輯回歸是常用的二分類的分類器,在這種分類器上面我們加了一個基于PrivC的加密算法的邏輯回歸,這種算法是基于MPC的安全學習。

我們在19年的安全頂會上面發(fā)表了關于這個算法的文章,特點是訓練速度和在公開的服務器上的明文相比,速度大概會是在明文算法的40倍以內,也就是明文算法假如要用時1分鐘,那么我們要用時40分鐘。

這里有一個案例,就是我們基于深度MNIST公開數據集,6萬行784位的運算,我們用時25秒,時間還是比較快的。

在下面的截圖,我們看到一些Table2,在一些加減還有一些常規(guī)的比較上面,基于我們自研的PrivC的算法和公開的其他的一些加密算法,像ABY、EMP、SPDZ等等,我們的運算速度都比他們快,標出的黑色數值是越小越好。

我們的準確率和明文算法比,會達到99%左右,比明文算法低一點點,一般的梯度,有時候建模如果控制得不太好,都會有一些模型的損耗,而我們的損耗是比較少的。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

第二種算法,就是基于梯度提升的算法,有GBDT、XGBoost,再快一點的有LightGBM,我們這種算法叫SecureGBM,它是在LightGBM級別的基礎上改造而成的。

基于 LightGBM基礎上改造而成的這種算法,我們也是發(fā)表在19年的IEEE國際大數據會議上,大家看到左下角有一個截圖,紅色的框是百度自研的叫SecureGBM,藍色的框,LightGBM-(A,B)就是明文算法,我們算法最后的結果和同類的最好的明文算法去比,在沒有用任何加密的和普通的建模相同的條件下,AUC值的差距大概是在3%以內。

我們也比較了其他的一些明文算法,在這個圖里邊是-A或者-B,它是用了一些加密的聯邦的一些算法去比AUC值,我們的算法都是比其它的算法會高一些,但我們會比明文的算法大概低三個AUC值,在3%以內。

第二個是它的運算速度,從這個截圖看到,對比了16,000個樣本,我們的算法和明文算法去比的話,我們的速度大概是明文算法的6倍,也就是明文算法如果用一分鐘的話,我們會用六分鐘,這個已經是非常好的效果了。

這個地方我們也提到,我們現在用的這個Paper里邊是16,000個樣本,如果樣本增加到10萬個,或者再往上增加,我們這個算法的運算效率會更高。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

那么我們SecureGBM和明文算法的LightGBM,雙方數據在一起,比較了在訓練集上的AUC值和F1值,大家會看到有一條紅線和一條藍線,在截圖里面紅線和藍線絕大多數時候是靠在一起的,走勢是相同的,非常的接近。

說明我們的這個算法和明文的LightGBM的算法,在AUC值、在F1、在訓練集上和測試集上,達到了非常類似的一個效果。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

第三種算法基于深度學習,PaddleFL,是在我們百度自研的一個開源的深度學習框架飛槳的基礎上,研發(fā)出來的開源的聯邦學習框架。

下面是開源框架的github的網址,通過PaddleFL,使用人員可以很輕松的去復制和比較不同的聯邦學習算法,也可以在分布式的大規(guī)模集群里面去使用。

這種PaddleFL主要用在深度學習算法里邊,用在計算機視覺、自然語言處理和推薦算法的一些領域,也提供一些傳統的機器學習的訓練策略。

比如說像多任務學習,還有一些遷移學習、主動學習等等,我們底層也提供基于分布式的訓練和Kubernetes的訓練任務的彈性的調度能力,可以進行全站開源軟件的侵入和部署,下面是基于我們的飛槳的一個的架構圖。

接下來是編程模型、參數服務器、到端側訓練和彈性調度,再往上是我們聯邦學習的訓練策略及應用。

聯邦學習策略這塊我們也有縱向的聯邦學習,剛才提到的PrivC的邏輯回歸,橫向的聯邦學習,還包括DPSGD基于差分隱私的隨機梯度等等。

我們也有常態(tài)的一些機器學習,像遷移學習,多任務學習,主動學習等基于聯邦學習的任務,還有基于深度學習的自然語言處理、視覺、推薦這一塊的學習任務,都是在PaddleFL的基礎上來做深度聯邦學習的建模。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

PaddleFL的架構設計,圖的左邊叫編譯Compile Time,是首先通過聯邦策略,去設計一些算法策略,然后在中間設計訓練策略,再用分布式的配置,合成以后,傳到中間任務的調度上面。任務調度再傳到參數的任務和訓練的任務上面生成了job以后,再傳到這邊運行。

運行這一塊有參數的服務器和worker,再下面是調度器,整個就會把服務提起來,然后進行分布式的訓練,這是PaddleFL的架構設計。

同理,我們也有基于MPC的聯邦學習,分成三部分,一是圖右部分,基于數據的準備,首先有私有數據的對齊和數據加密及分發(fā)。

二是訓練和推理過程,和Paddle的運行模式一樣。首先要定義協議,在策略訓練和推理完成后,就會到這個圖的最右邊進行結果的重構。

這一塊就會把模型的結果或者預測結果,由加密方以加密的形式輸出,結果方可以收集加密的結果,在PFM工具中進行解密,再將明文的結果傳遞給用戶,就完成了整個MPC的聯邦學習過程。

安全保證是金融企業(yè)最高優(yōu)關注點

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

我們先看看現有的模式,現有的模式只有幾個,在沒有用到聯邦學習的時候,狀態(tài)是自己的IDC機房的網絡和外界是隔離的,沒有聯通互聯網,數據不進不出,因為只用到自己的核心系統的數據,數據是物理隔離的。

但是這個模式最大的問題,就是在它的建模過程中,會存在著一些天花板,比如剛才提到的KS值,如果做到0.35了,就再也不能再往上做了。

模型效果更多的取決于特征工程,而他又沒有用過外面的無論是互聯網,還有政府,一些運營商的一些領域的數據,那么一些風控也好,營銷的行為它是拿不到的,模型的上限是由多維度、多樣性來決定的,所以達不到很好的建模效果。

于是就衍生出來第二種模式,叫標準分的調用模式,標準分的第二個模式,它也是有自有機房,但是它的網絡變成不是隔離的了,而是單通道的,就是它的數據只進不出。

在網絡這塊,因為開了一個單向的通道,有可能存在一些被黑客攻擊的風險,這個標準分的調用也有一些弊端。

大家知道,進來的只是一些標準分,也就是說,外面的數據過來的可能就是一個變量或者兩個變量,它是一個高維特征壓縮以后的、降維以后的一些特征的輸入,每次輸入只有那么兩三個特征。

這種高維特征壓縮降到兩三個維度以后,有非常多的特征信息是損失了的,所以它提升的建模效果在信貸場景可能只提升那么一兩個點,比如像KS值是0.35,提升到0.37、0.38就到了天花板了。

我們今天談到聯邦學習的模式,它的數據通道是雙通道的,雙方要進行梯度或模型參數的交換。

首先,雙方數據對上面的一個中間節(jié)點要進行上傳,但是它的原始數據沒有出域,它的參數數據或者模型的參數或者梯度參數,是通過加密的方式來出域的。

從這個角度來看,因為它的網絡通道打開了,存在潛在的被黑客去攻擊的風險。梯度參數的話,從現在的業(yè)內的研究來看,也存在一些被反解,或者一些隱私被攻擊的方法。

還有一個,它有一個強烈假設,就是需要參與的雙方或者各方,需要滿足誠實、半誠實模型的原則,如果有一方有嚴重的欺詐,去改變了模型的一些參數,或者是一些游戲規(guī)則,模型的安全也會受到一些挑戰(zhàn)。

這是聯邦學習目前和上面的現有模式、標準的模式相比,所面臨的一些優(yōu)點和缺點。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

那么這里會就提到模型提效,模型提效是一把雙刃劍?,F有模式下,在右邊的這樣一個方程式,目標標簽Y是來自于金融企業(yè)本身,它的X特征也是來自于這家企業(yè),企業(yè)只用自有的數據建模,沒有外部數據帶來模型效果提升,就會面臨天花板。

我們再看聯邦學習這種方式,剛才提到,通過梯度參數的交換來建立模型,那么基本上雙方數據沒有降維,外部提升的最大好處就是,帶來的模型效果提升非常大,與明文相比的話,它的精度損失基本上還是比較小的。

但是,在和很多金融企業(yè)溝通后,知道它有非常大的短板,企業(yè)有各種各樣的顧慮。

1.建模的過程中,即使想用聯邦學習來進行建模,金融企業(yè)很多時候并不愿意把自己的特征放進來,但是可能只會將自己客戶的ID和目標變量Y放進來,因為金融企業(yè)會覺得用聯邦學習來建模,有可能存在一些數據安全的問題。

2.他們也希望拿到一些數據以后,再做二次建模,以滿足金融監(jiān)管的要求,因為在金融監(jiān)管這一塊,特別是在信貸風控的場景,希望金融機構要自控這個模型本身,而不能把這個模型交給外部的機構去控制。

安全保證和數據提效前提下的得與舍

在數據的安全保證和數據提效的前提下,聯邦學習還要面對什么樣的得和舍呢?

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

第一個,從運算速度來看,現有的銀行在自己的機房里面進行明文計算的數據建模,它的特點是運算速度很快,可以用像spark、Tensorflow、PaddlePaddle等分布式技術去做這種很成熟的運算。

但是到聯邦學習就不一樣了,剛才提到,它的訓練速度至少會比明文計算,少則慢一個數量級,慢10倍幾十倍,也有慢兩個數量級幾百倍的這種可能性。

第二塊就是它現有的分布式技術還不太成熟,這是他在速度這一塊可能需要去考量的。

第二個,從算法種類來說,明文算法它是基于Python的開源社區(qū),算法生態(tài)非常多,上千種上萬種,頂級論文的開源代碼,基本上就是按天、按周來迭代,更新的頻次非???。

但是在聯邦學習的算法過程中,要考慮到數據參數的加密,所以它的研發(fā)非常困難,我們的算法種類相對而言都是比較少的。業(yè)界現在能看到的也就是那么幾種或者幾十種,并且也不可能把最新的算法研發(fā)出來用在聯邦學習這個領域。

第三塊,就是產品的應用性,因為現在基于明文數據的這種算法,AI開發(fā)平臺有非常多,支持多種框架,還有它和數據的中臺的融合,非常好對接。

那么對純代碼方式來講,金融行業(yè)去使用時,因為金融行業(yè)很多用戶也不是經常做coding,所以他的學習曲線比較難、比較高。

剛才也提到如果用代碼這種方式,它跟這個操作系統有些時候需要linux shell腳本方式進行交互,那么它的安全性可能會存在一些缺陷。百度的度信平臺在這一塊用純界面的方式,也面臨著一些開發(fā)的周期和實施的難度。這個是聯邦學習與建模要考慮的問題。

所以我們在考慮安全,在考慮數據對建模效果業(yè)務績效的前提下,我們在運算速度上,在算法的種類的選擇上,在產品的應用上,都做了一些權衡和一些損失,但有些時候這種損失和這種權衡是值得的。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

下面一點,就是百度金融專有云,如果是聯邦學習在我們的金融云、專有云上面進行部署的話,我們還額外提供七重的數據安全保障。

這七重的數據安全保障在這個圖里邊用1234567都標注出來了。一塊是我們提供異地的災備,我們在武漢、北京和上海有異地的百度金融云專區(qū)。

在數據的交換過程中,我們會提供一些芯片級的算法級的加密,包括在網絡的通路上,也提供一些加密的傳輸,讓加密的數據被截取以后都是不可用、不可解的。我們參與方的數據在云上的鏈路也好,在云上的一些硬件的里面,雙方都是互不可見的。

安全的數據脫敏方法和合規(guī)制度保障

在完成了整個建模的過程以后,比如說金融企業(yè)的數據要有用戶要查處,最后模型在使用的時候,有一個數據的健全,如果沒有授權的話,是不可以去使用產出模型的。

除了聯邦學習以外,我們在整個云上、在物理鏈路上、存儲量上、硬件上做了各種各樣的加密去保證安全,而不只是運用了聯邦學習技術本身,或者只是開發(fā)一個平臺。

在和金融企業(yè)的溝通中,我們發(fā)現,即便雙方要進行聯邦數據的融合建模,也可以采取剛才說到的,雙方先有兩個數據寬表,然后再進行融合的聯邦學習。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

在生成這兩個雙方的數據寬表的同時,還可以采取一些更加安全的數據脫敏方法,用的比較多的就是K-匿名化,這個是保護客戶數據隱私的一種重要方法。

我們希望雙方在生成數據寬表的時候,甲方和乙方都能夠采用類似于匿名化的技術,讓雙方的原始特征數據脫敏得比較徹底,不能夠被反推。雖然聯邦學習本身也非常安全,在這個基礎上,我們能夠用更多的數據脫敏的方法。

右邊這一種也是類似的,我們會用差分隱私的一個方法,在數據集中里面產生一定的噪聲,這種隨機造成它可以通過一些概率分布前置來產生,這樣就在設計過程中很難去推斷出客戶的一些隱私。

百度「聯邦學習」戰(zhàn)略全布局丨萬字長文

和金融機構合作時,在數據的安全管控上,我們也會提供一整套的安全的合規(guī)的保障制度。

首先是從公司的治理層面,數據和流程層面及安全的能力層面,我們從不同的角度去看這家金融企業(yè)和它合作的另外一個互聯網企業(yè),只要用到度信平臺,我們會提供一整套的關于安全保障機制的建議。

還有一塊就是數據的生命周期安全,我們考慮到六個環(huán)節(jié),數據的收集和產生要合規(guī),我們有數據的分類分級和安全日志。那么在傳輸和傳遞過程中,有加密和傳輸的安全的監(jiān)控。

第三塊就是存儲,在存儲的安全和數據的加密備份這一塊,也要考慮安全。

第四就是它整個數據的加工的環(huán)境,使用方和用戶授權等等,也要保證安全。

第五個環(huán)節(jié)涉及整個的流通與共享,包括對內流通和對外流通,我們要考慮相關的安全性。

當我們使用完聯邦學習以后,也要有相應的動作,不要讓數據留存在雙方的服務器里邊。整個的安全制度合規(guī)保障和數據的生命周期,都是我們在實踐中慢慢總結出來的。

對于整個聯邦學習,額外增加了一些針對金融行業(yè)更加安全的一些舉措和方法論。

我們也通過度信在這樣一個平臺的實施過程中,慢慢把這種方法論傳遞給金融機構,傳遞給合作方,讓我們整個在運用聯邦學習的過程中,更加保證整個數據的安全,讓數據可用不可見。

雷鋒網雷鋒網雷鋒網

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知

分享:
相關文章

編輯

云計算/To B/金融科技丨微信:LorraineSummer
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說